Caso de estudio: Dataset Iris
En secciones anteriores, hablamos de qué era machine learning y el gran énfasis que este hace en el análisis de datos. Para poner en práctica lo visto anteriormente, se utiliza el dataset de las flores Iris como caso de estudio en esta sección. De las herramientas vistas anteriormente, utilizaremos Rapidminer para la generación y análisis de estadísticas.
¿Qué contiene este dataset?
El dataset analizado posee datos sobre mediciones de tres tipos de flores:
- Iris setosa
- Iris versicolor
- Iris virginica
Las mediciones realizadas sobre este conjunto de flores, fueron de:
- Largo del sépalo
- Ancho del sépalo
- Largo del pétalo
- Ancho del pétalo
La idea de tener estas mediciones para las flores registradas es lograr poder ver patrones en estas medidas y poder en un futuro, crear un modelo que sea capaz de predecir cual es el tipo de una flor de este conjunto dadas solo las medidas del sépalo y pétalo.
Análisis
El dataset estudiado puede ser encontrado tanto incluído en la instalación básica de Rapidminer como también en: Iris Dataset
En este tutorial se utilizará la versión presente en el enlace anterior. Para comenzar a analizar este dataset en Rapidminer, comenzamos importando los datos descargados de iris.data (Tener en cuenta que para analizar mejor este dataset, es recomendable agregarle una fila al archivo iris.data conteniendo los nombres de las columnas indicados en iris.names)
El proceso en rapidminer se verá de la siguiente forma:
Finalmente, presionamos el botón de "Play" para correr el proceso.
Resultados
Para acceder a los resultados, iremos a la pestaña "Results" indicada arriba. Allí, encontraremos varias pestañas más del lado izquierdo.
Data
Esta pestaña sin modificar, nos mostrará el conjunto de datos en un formato de tabla. Agregando otros operadores, es posible agregar columnas extra que nos muestren datos estadísticos o definir cálculos especiales.
Statistics
Statistics aplicará un analisis de estadística descriptiva básico, mostrando datos como el máximo, mínimo, desviación estandar y promedio. Además, mostrará un histograma mostrando la distribución de los datos, algo que para otros problemas, nos puede servir para saber si hay algún sesgo en nuestros datos.
Visualizations
Finalmente, la pestaña Visualizations nos permitirá graficar los datos procesados por Rapidminer utilizando todos los campos especificados. Para analizar los datos, utilizaremos una gráfica 3D del ancho del sépalo en función de la clase y con un color que se entone en base al ancho del pétalo
¿Qué podemos ver de estos datos? A simple vista, podemos ver que claramente, por la entonación de colores, los anchos de los pétalos son muy diferentes en base a la flor de la que se habla. Las Iris setosas tienen un ancho menor a 0.5 cm, mientras que las Iris versicolor tienen anchos cercanos a 1.5 cm y las Iris Virginicas tienen anchos por encima de los 2 cm.
Desde este otro ángulo, vemos como en realidad, el ancho del sépalo es diferente entre las tres tipos de flores pero tampoco es una gran diferencia. Combinando ambas vistas llegamos a la conclusión de que las Iris setosas son las que presentan anchos de sépalo más grandes en general, las versicolor las de menor ancho y las virginicas un promedio entre ambas.
Conclusión
Hemos analizado el dataset Iris y hemos visto como los datos vistos en una gráfica 3D nos pueden revelar comportamientos de los distintos tipos de flores. La importancia del analisis viene en que al ver patrones de comportamiento entre flores del mismo grupo, podemos en un futuro predecir un tipo de flor dados los datos sin clasificar.